Assignment

Q-Learning

SARSA

Comparison & Report

雖然SARSA的Demo影片很快就死亡,但還是可以從兩個方法的Demo影片中看出,兩個Agent做出的動作選擇並沒有相差太多,因為環境的設定是通過一個水管就有獎勵,但並沒有其他的懲罰,若是加上懲罰(如: 飛一下-1),那Q-Learning訓練出來的agent應該會有更多鋌而走險的走法(快碰到水管邊緣)。

*影片無法播放的話,上面有兩個方法各自的Demo影片,我也有在雲端中放上影片及下面的圖表。

Lifetime

Reward

不管是在Lifetime還是Reward的結果,兩個方法雖然都有明顯高低震盪,但Q-learning平均都比SARSA來的好,可能是在學習過程中,Q-learning傾向會去找下一步最好的動作去學習,讓整體的表現都優於SARSA。